智能论文笔记

变异推理（VI）的核心原理是将计算复杂后概率密度计算的统计推断问题转换为可拖动的优化问题。该属性使VI比几种基于采样的技术更快。但是，传统的VI算法无法扩展到大型数据集，并且无法轻易推断出越野数据点，而无需重新运行优化过程。该领域的最新发展，例如随机，黑框和摊销VI，已帮助解决了这些问题。如今，生成的建模任务广泛利用摊销VI来实现其效率和可扩展性，因为它利用参数化函数来学习近似的后验密度参数。在本文中，我们回顾了各种VI技术的数学基础，以构成理解摊销VI的基础。此外，我们还概述了最近解决摊销VI问题的趋势，例如摊销差距，泛化问题，不一致的表示学习和后验崩溃。最后，我们分析了改善VI优化的替代差异度量。

translated by 谷歌翻译

Development of a face mask detection pipeline for mask-wearing monitoring in the era of the COVID-19 pandemic: A modular approach

Benjaphan Sommana , Ukrit Watchareeruetai , Ankush Ganguly , Samuel W. F. Earp , Taya Kitiyakara , Suparee Boonmanunt , Ratchainant Thammasudjarit

分类：计算机视觉 | 机器学习

2021-12-30

在SARS-COV-2大流行期间，戴着面膜穿着成为防止传播和收缩病毒的有效工具。监测人口中面膜速率的能力将用于确定对病毒的公共卫生策略。然而，用于检测面罩的人工智能技术尚未在现实生活中以大规模部署在公共场合的大规模中。在本文中，我们介绍了由两个单独的模块组成的两步面掩模检测方法：1）面部检测和对准，2）面掩模分类。这种方法使我们能够尝试不同的面部检测和面罩分类模块的组合。更具体地说，我们尝试使用金字塔和视网膜作为面部探测器，同时保持面罩分类模块的轻质骨干。此外，我们还提供了Aizoo数据集的测试集的重叠注释，在那里我们纠正了某些面部图像的错误标签。 Aizoo和Moxa 3K数据集的评估结果表明，所提出的面罩检测管道超越了最先进的方法。所提出的管道在AIZOO数据集的重叠测试组上也产生了比原始测试集更高的映射。由于我们使用野外的面部图像培训了所提出的模型，我们可以成功部署我们的模型来使用公共CCTV图像监控戴掩模速率。

translated by 谷歌翻译

本文提出了一种名为定位变压器（LOTR）的新型变压器的面部地标定位网络。所提出的框架是一种直接坐标回归方法，利用变压器网络以更好地利用特征图中的空间信息。 LOTR模型由三个主要模块组成：1）将输入图像转换为特征图的视觉骨干板，2）改进Visual Backone的特征表示，以及3）直接预测的地标预测头部的变压器模块来自变压器的代表的地标坐标。给定裁剪和对齐的面部图像，所提出的LOTR可以训练结束到底，而无需任何后处理步骤。本文还介绍了光滑翼损失功能，它解决了机翼损耗的梯度不连续性，导致比L1，L2和机翼损耗等标准损耗功能更好地收敛。通过106点面部地标定位的第一个大挑战提供的JD地标数据集的实验结果表明了LOTR在排行榜上的现有方法和最近基于热爱的方法的优势。在WFLW DataSet上，所提出的Lotr框架与若干最先进的方法相比，展示了有希望的结果。此外，我们在使用我们提出的LOTRS面向对齐时，我们报告了最先进的面部识别性能的提高。

translated by 谷歌翻译